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摘 要 : 本 文 主要 介绍 数据 分 析 模 块 的 设计 与 实现 。 通 过 建设 在 线 调查 服务 平台 ， 实 现 调查 问卷 精细 化 设计 、 调 查 问卷 自动 
化 收集 、 调 查 数据 可 视 化 高 效 展 现 、 调 查 数据 权 戌 精准 发 布 的 在 线 调查 全 流程 管控 。 通 过 收集 调查 服务 平台 上 的 数据 ， 面 向 


不 同 用 户 提供 问题 分 析 、 受 访 人 分 析 、 关 联 分 析 、 时 序 分 析 、 指 数 曲线 、 地 区 排名 等 数据 分 析 应 用 服务 。 
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1. 数据 分 析 模 块 的 背景 与 意义 
问卷 调查 指 的 是 借助 结构 化 问卷 ， 从 一 定数 量 的 个 


数据 治理 。 数 据 治 理 包 括 数 据 标准 体系 ( 指标 体系 、 
口径 标准 ,标签 分 类 等 )、 分 析 指 标 体系 ( 受 访 者 对 象 分 析 、 


写 。 。 体 样本 或 人 口 单位 中 回收 信息 的 方法 。 借 助 问卷 这 一 工 。 调查 主题 分 析 、 检 索 模式 等 ) 和 数据 库 建设 ( 主题 数据 
O) 具 , 调研 人 员 能 够 对 社会 活动 过 程 进行 系统 、 具 体 的 测量 ，。 库 和 专题 ) 三 方面 的 工作 。 

了 。 并 运用 统计 手段 对 结果 进行 量化 描述 和 分 析 。" 传统 的 运 维 管理 包括 服务 器 管理 、 应 用 管理 、 安 全 管理 等 。 
加 ”问卷 调查 往往 存在 着 数据 采集 方式 比较 单一 ， 调 查 范围 。” 2. 数据 分 析 模块 的 需求 

咏 。 ”相对 有 限 ,数据 采集 上 报 及 时 性 不 够 ， 数据 质 量 核 验 工 数据 分 析 包括 基于 建 模 数据 的 主题 分 析 、 数 据 建 模 
@ 〇 DB 人 作 繁 下 容 易 出 错 、 结 果 展 示 不 够 及 时 等 问题 。 能 力 、 多 维度 分 析 能 力 、 数 据 可 视 化 能 力 和 数据 分 析 管 
一 然而 ， 随 着 大 数据 、 互 联网 等 技术 的 发 展 ， 亟 需 通 。 理 能 力 。" 

SS 过 改变 传统 的 业务 流程 ， 采 用 智能 化 的 数据 入 库 方式 、 多 ”2.1 基于 建 模 数据 的 主题 分 析 

@ 种 形式 的 可 视 化 展现 方式 对 分 析 结果 进行 展现 ， 并 为 多 类 需要 支持 问题 分 析 、 受 访 人 分 析 、 历史 分 析 (时 序 )、 
GN 型 的 用 户 提供 服务 。 基于 互联 网 技术 的 媒体 占据 重要 市 ” 地 区 排名 、 指 数 曲线 等 适应 大 调查 特点 的 数据 分 析 。 支 
> ” 场 ， 是 立足 于 历史 、 聚 焦 于 技术 革新 的 发 展 成 果 ， 这 种 变 。” 持 分 析 指标 模型 及 逻辑 的 可 视 化 定制 。 

5 化 的 突出 表现 在 于 传媒 企业 建设 全 面 靠近 互联 网 。 2.2 数据 建 模 能 

© 通过 对 收集 的 数据 进行 多 方位 的 分 析 ， 一 方面 可 以 数据 建 模 在 本 系统 中 的 主要 是 数据 挖掘 的 方法 来 实 
.三 ”服务 于 每 年 一 次 的 大 调查 工作 ; 另 一 方面 还 可 以 服务 于 现 。 数 据 挖 据 是 按 既 定 目标 ， 对 大 量 数据 进行 探索 和 分 
.C ”和 名 节目 部 门 的 相关 调查 需求 。 建设 在 线 调查 服务 平台 ， ” 析 ， 揭 示 隐藏 的 、 未 知 的 或 验证 已 知 的 规律 性 ， 并 进 一 
〇 ”实现 调查 问卷 精细 化 设计 、 调 查 问卷 自动 化 收集 、 调查 。 步 将 其 模型 化 。 数据 建 模 需 支 持 Oracle、MySQL、SQL 


数据 可 视 化 高 效 展现 、 调 查 数据 权威 精准 发 布 的 在 线 调 
查 全 流程 管控 。 

数据 采集 。 提供 对 发 布 的 调研 问卷 的 数据 采集 管理 ， 
包括 用 户 ID 识别 认证 、 扫 描 方式 多 样 化 、 防 作弊 机 制 、 
地 理 位 置 采集 、 终 端 信息 采集 等 。 

问卷 管理 。 对 调查 问卷 进行 配置 ， 能 够 生成 不 同类 型 、 
不 同样 式 的 调研 问卷 ;提供 对 调研 问卷 列表 的 基础 管理 、 
发 布 等 对 当前 执行 的 调研 问卷 提供 进度 统计 问卷 分 析 等 。 

数据 分 析 。 面 向 不 同 的 用 户 提 供 问 题 分 析 、 受 访 人 
分 析 、 关 联 分 析 、 时 序 分 析 、 指 数 曲 线 、 地 区 排名 等 数 
据 分 析 应 用 服务 。 


Server、PostgreSQL 等 常见 的 关系 型 数据 库 的 数据 源 。 文 
持 Excel、CSV 文件 数据 源 。 支 持 不 同 数据 源 的 跨 Schema 
表 关 联 查 询 。 支 持 图 形 化 拖 搜 方式 进行 数据 关联 建 模 ， 
并 支持 建 模 数据 实时 预览 。 支 持 自 定义 字段 ， 可 创建 新 
的 数据 字段 。 支 持 字段 名 更 改 ， 并 能 够 自 定义 字段 排序 
规则 。 创 建 的 数据 集 模型 支持 导出 为 Excel 文件 。 文 持 手 
写 SQL 方式 创建 数据 集 。 
2.3 多 维度 分 析 能 

OLAP 技术 中 比较 典型 的 应 用 是 对 多 维 数据 的 切片 和 
切 块 、 钻 取 、 旋 转 等 , 它 便于 使 用 者 从 不 同 角度 提取 有 关 
数据 。m 通过 拖 搜 形 式 创建 维度 层次 ,要 能 够 调整 维度 


数据 发 布 。 提 供 将 分 析 应 用 结果 实时 推动 至 Web 端 、 
可 视 化 大 屏 ( PC 端 )、 微 信 公 众 号 、 其 他 网 络 新 媒体 的 服务 。 

会 员 管理 。 针 对 调查 对 象 进行 分 析 ， 将 注册 的 用 户 
纳入 央视 大 调查 的 会 员 管理 体系 , 提供 会 员 信息 的 查看 、 
消息 发 布 、 社 区 互动 、 维 护 管理 等 。 


层次 中 不 同 层次 顺序 及 命名 。 支持 求 和 、 最 大 值 、 最 小 值 、 
平均 值 、 计 数 、 不 重复 计数 等 聚合 方式 ， 并 支持 同 环比 
计算 。 同时 要 支持 按照 升序 、 降 序 、 自 定义 规则 进行 排序 ， 
并 支持 主 次 排序 维度 。 支 持 时 间 类 型 字段 的 自动 拆 分 ， 

要 能 够 拆 分 为 年 、 季 度 、 月 、 周 、 日 不 同 粒度 。 支 持 过 
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滤 盘 选 ， 时 间 类 型 字段 能 够 设置 时 间 筛 选 粒度 及 时 间 范 
围 ， 并 且 字 符 类 型 字段 要 具备 通配符 匹配 功能 。 支 持 联 
动 钻 取 分 析 , 可 以 根据 设置 的 维度 层次 进行 上 卷 、 下 钻 、 
查看 明细 功能 。 
2.4 数据 可 视 化 能 

数据 可 视 化 技术 可 以 快速 的 表达 繁多 的 数据 和 信息 
进行 图 像 化 , 从 而 降低 数据 的 认 知 难度 , 帮助 人 们 理解 数 
据 。 呈 通过 对 数据 分 析 挖 掘 形成 的 趋势 规律 ， 是 数据 价 
值 的 体现 。 通 过 数据 可 视 化 手段 将 这 些 价 值 呈 现 出 来 也 
是 数据 实践 的 重要 一 环 。 包 大 屏 所 有 展示 内 容 都 通过 工 
具 配 置 , 不 需要 编写 代码 , 能 够 做 到 快速 构建 , 快速 变更 ， 
维护 方便 ,支持 设置 分 状 率 大 小 或 自 适应 , 固定 分 状 率 下 ， 
支持 按照 原始 大 小 或 缩放 长 边 铺 满 展 现 。 支 持 故 事 板 播 
放 运 行 , 需 支 持 两 种 播放 效果 , 一 是 一 屏 展现 所 有 内 容 ， 
二 是 多 屏 翻 页 展现 。 
2.5 数据 分 析 管 理 能 

数据 管理 模块 支持 URL 分 享 ， 并 支持 公开 、 密 码 私 
密 分 享 两 种 方式 。 支 持 对 组 织 结构 、 用 户 、 角 色 进 行 统 
一 的 管理 ， 支 持 与 其 他 系统 进行 对 接 实现 单 点 登录 等 功 
能 。 
3. 数据 分 析 模 块 的 设计 方案 
3.1 基于 建 模 数 据 的 主题 分 析 

如 图 1 所 示 ， 建 立 基于 问题 分 析 、 受 访 人 分 析 、 历 
史 分 析 (时 序 ) 、 地 区 排名 、 指 数 曲 线 等 适应 大 调查 特 


点 的 数据 分 析 接 口 。 
[= 


创建 交 又 分 析 


Er [an Er 


创建 历史 分 析 创建 地 区 排名 


EE EN 


图 1 基于 主题 的 数据 分 析 界面 
此 外 ,还 设计 了 支持 分 析 指 标 模型 及 逻辑 的 可 视 化 
定制 页 面 ， 如 图 2 所 示 。 


图 2 数据 分 析 列 表 
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3.2 数据 模型 的 设计 

针对 数据 分 析 模 型 需要 支持 多 种 不 同 的 数据 源 ， 设 
计 如 图 3 所 示 的 多 数据 源 类 型 的 数据 接 入 或 存储 方案 。 该 
设计 方案 支持 可 视 化 快速 创建 数据 集 ， 用 户 可 拖 搜 数据 源 
中 多 个 数据 表 搭 建 数据 关联 关系 ， 数 据 表 间 通过 连接 线 清 
晰 展现 数据 关联 关系 。 如 果 两 个 表 之 间 存 在 主 外 键 关 联 ， 
会 自动 建立 关联 关系 ， 如 果 没 有 会 根据 相同 的 字段 名 称 建 
立 关联 ， 支 持 关 联 关系 的 修改 。 支 持 自 定义 字段 功能 ， 支 
持 以 下 五 大 类 : 时 间 计算 、 数 字 计 算 、 字 符 计算 、 关 系 计 
算 和 人 逻辑 计算 。 支 持 通过 数据 可 视 化 窗口 实时 查看 勾 选 的 
字段 以 及 自 定义 字段 的 数据 内 容 及 格式 。 


心 国 配 


"2 
Cs 


“人 多国 一 国 


图 3 数据 源 类 型 


针对 高 级 需求 还 支持 可 以 手写 SQL 方式 ， 实 现 数据 
建 模 过程 ， 如 图 4 所 示 。 创 建 的 数据 集 模型 支持 导出 为 
Excel 文件 。 支 持 手写 SQL 方式 创建 数据 集 。 


Safta DataVie 


pmoduet 


mmo 


lm5 


图 4 数据 建 模 


3.3 数据 多 维度 分 析 设计 

如 图 5 所 示 ， 设 计 支 持 多 种 数据 聚合 方式 并 支持 同 
环比 计算 的 数据 多 维度 分 析 模 块 。 用 户 可 以 随时 获得 数 
据 不 同 维度 的 分 析 结 果 。 


日 志和 从 


EA] 


ol 年 


000/000 2000000 3000000 4000,000 


= 


图 5 数据 聚合 方式 设计 
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此 外 ,支持 多 种 排序 方式 ， 排 序 方式 主要 包括 排序 
顺序 、Top 数据 、 排 序 依据 、 排 序 提示 几 个 模块 ， 并 支持 
多 字段 排序 县 加 。 

升序 : 升序 为 当前 排序 的 正常 升序 排序 。 当 对 度量 
字段 进行 排序 时 ， 为 当前 度量 的 数字 升序 ， 当 对 维度 字 
段 进行 排序 时 ， 为 当前 维度 排序 依据 的 升序 。 
降序 : 降序 为 当前 排序 的 正常 降序 排序 。 当 对 度量 
字段 进行 排序 时 ， 为 当前 度量 的 数字 降序 ， 当 对 维度 字 
段 进行 排序 时 ， 为 当前 维度 排序 依据 的 降序 。 

Top 数据 : Top 数据 功能 只 对 度量 有 效 ， 支 持 两 种 选 
择 方式 ， 当 选择 排序 顺序 为 升序 时 ,UI 变 为 “前 _ 个”， 
当选 择 排序 顺序 为 降序 时 ，UI 变 为 “后 _ 个 ”。 
默认 排序 : 即 为 数据 查询 的 原始 顺序 ， 配 合 排序 顺 
序 选择 是 升序 ( 正 序 ) 或 降序 ( 逆序 ) 。 

字母 /拼音 顺序 : 按照 当前 字段 的 字母 /拼音 顺序 进 
行 排序 。 

其 他 字段 排序 : 选择 其 他 的 字段 来 排序 选择 的 字段 ， 
并 支持 聚合 ， 如 图 6 所 示 ， 当 选择 字段 后 ， 需 要 同时 选 
择 该 字段 的 聚合 方式 ， 并 配合 排序 顺序 ， 以 聚合 后 的 结 
果 作 为 依据 来 排 选 择 的 字段 。 

手动 排序 : 手动 排序 即 支 持 用 户 手 动 调整 排序 规则 ， 
系统 默认 读 取 选择 排序 字段 的 distinct 值 ， 用 户 可 以 自行 
拖 搜 、 添 加 、 删 除 字段 来 调整 先后 顺序 ， 然 后 形成 排序 
规则 ， 并 按照 此 规则 排 图 表 数 据 。 


该 模块 提供 多 维度 探索 分 析 功 能 ， 用 户 可 根据 数据 
分 析 需 求 自 由 拖 搜 数据 集中 的 维度 和 度量 完成 数据 绑 定 ， 
并 自动 生成 对 应 可 视 化 图 表 。 在 数据 分 析 阶 段 还 支持 对 
字段 的 二 次 加 工 ， 公 式 种 类 分 为 六 大 类 : 时 间 计 算 、 数 
字 计 算 、 字 符 计算 、 关 系 计算 、 逻 辑 计算 、 聚 合计 算 。 
对 于 分 组 数据 ， 还 支持 拖 搜 维度 改变 分 组 层次 ， 并 进行 
组 合 分 析 。 支 持 数 据 上 卷 、 下 销 、 销 透 、 切 片 、 切 块 ， 
可 以 完成 从 粗 粒 度数 据 到 明细 数据 的 逐 层 探 查 ， 并 自动 
生成 对 应 可 视 化 图 表 ， 帮 助 用 户 发 现 业务 根本 问题 ， 如 
图 7 所 示 。 


开 
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下 外 至 城市 
上 汰 至 地 区 
详细 信息 
图 过 数据 


上 卷 下 钻 


图 7 数据 钻 取 


3.4 数据 可 视 化 设计 

可 视 化 展示 离 不 开 图 表 ， 提 供 数 10 种 具有 动态 交互 
性 可 拓展 的 图 表 ， 如 图 8 所 示 。 

支持 基于 GIS 地 图 的 数据 可 视 化 方法 , 包括 轨迹 网 、 
热力 图 、 标 记 点 地 图 ，GIS 地 图 支持 在 线 的 高 德 地 图 、 必 
应 地 图 、 谷 歌 地 图 等 ， 也 可 支持 基于 WMS、WMTS 标准 
的 非 在 线 地 图 产品 ，GIS 地 图 底 图 可 随意 切换 。 


wu dd du ut $$ 5 28) 


ul 友 ,| BEE 


Eee 人 1 or 二 德 


图 8 可 视 化 图 表 


支持 网 格式 布局 ， 将 上 述 元 素 拖 搜 到 上 、 下 、 左 、 
右 、 中 等 位 置 ， 并 文 持 通 过 拖 搜 的 方式 改变 某 一 区 域 的 
大 小 ; 支持 使 用 自由 块 完 成 图 册 的 无 网 格 约束 的 自由 布 
局 。 支持 设置 图 表 间 联动 交互 , 并 且 支 持 跨 数 据 源 联动 ， 
帮助 用 户 动态 分 析 数 据 、 深 入 探索 数据 间 复 杂 关 系 ， 如 
图 9 所 示 。 


图 9 联动 展示 
3.5 数据 分 析 管 理 设计 
内 置 多 种 主题 风格 样式 ， 支 持 一 键 快速 切换 各 种 主 
题 ， 针 对 于 图 册 主 题 有 更 为 特殊 的 要 求 ， 还 支持 主题 的 


自 定义 功能 ， 通 过 图 形 界面 的 方式 增加 自 定 义 主 题 。 针 
对 于 一 个 图 册 中 的 多 个 图 表 分 别 使 用 不 同 主题 的 需求 ， 
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提供 在 图 册 中 图 表 保 留 本 身 主题 的 功能 ， 即 图 表 可 以 不 
使 用 图 册 的 主题 ， 如 图 10 所 示 。 


图 10 图 册 主 题 


4. 数据 分 析 模 块 的 应 用 实践 

通过 建设 在 线 调查 平台 的 数据 多 维度 分 析 模 块 ， 可 
以 提供 数据 分 析 结果 应 用 ， 以 及 分 析 结果 并 未 公布 。 一 
方面 可 以 适应 多 种 不 同 数据 源 ， 建 立 相 应 的 数据 集 ， 男 
一 方面 ， 可 以 提供 丰富 的 可 视 化 界面 ， 用 户 可 以 从 不 同 
的 维度 了 解数 据 分 析 的 结 
5. 下 一 步 工作 

在 未 来 的 工作 中 ， 基 于 在 线 调查 服务 平台 ， 扩 展 数 
据 分 析 结 果 的 应 用 , 融合 最 新 的 指数 分 析 指 标 算法 。 同时 ， 
可 以 接 入 移动 端 、 微 信 微 博 等 社交 媒体 ， 将 数据 分 析 结 
果 直 接 发 布 。 器 
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一 个 重要 议题 。 

最 后 ， 虽 然 智能 化 、 自 动 化 可 在 一 定 程度 上 提高 新 
闻 制 作 效率 ， 但 自动 化 新 闻 系 统 永 远 无 法 蔡 代 编辑 、 记 
者 的 工作 。 再 多 的 自动 化 系统 也 无 法 取代 和 构建 讲述 好 
故事 的 技能 。 在 这 里 ， 自 动 化 系统 为 讲 好 故事 提供 了 必 
要 的 支持 ， 而 不 是 取代 它 。 明 确 了 这 两 者 的 关系 定位 ， 
也 就 更 加 清楚 地 认识 到 在 构建 自动 化 系统 的 实践 中 ， 仪 
有 工程 师 的 参与 是 不 够 的 。 正 如 英国 卫 报 数据 博客 编辑 
西蒙 ' 罗杰斯 所 指出 的 : 新 闻 编 辑 部 的 布局 很 有 讲究 ， 
如 果 你 越 靠近 新 闻 编 辑 部 ， 就 更 加 方便 进行 新 闻 报 道 的 
交流 ， 这 是 新 闻 策 划 过 程 中 必 不 可 少 的 一 部 分 ; 反之 ， 
则 两 者 距离 越 来 越 远 。 这 也 从 男 一 方面 阐明 : 专家 型 萌 
闻 人 才 与 技术 团队 相互 协作 ， 是 新 闻 自 动 化 系统 成 功 构 
建 的 必要 条 件 。 比 如 , 在 上 述 开发 自动 化 图 表 新 闻 项 目 中， 
项 目 组 还 邀请 了 认 知 科学 家 、 漫 画 理论 家 、 一 线 记者 共 
同 参 与 项 目 中 ， 提 出 各 自 专 业 的 见解 。 

综 上 所 述 ， 利 用 人 工 智 能 技术 ， 特 别 是 自然 语言 处 
理 技 术 提 升 新 闻 报 道 时 效 性 是 时 代 的 必然 。 新 闻 媒 体 要 适 
应 新 时 代 新 闻 制 作 、 传 播 的 特点 ， 利 用 新 技术 切实 履行 好 
言 息 传播 、 与 论 引 导 的 使 命 。 同 时 ， 新 闻 人 和 技术 工程 师 
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